VoxCPM:无需分词的TTS和语音克隆AI
大多数文本到语音系统遵循相同的配方:将语音分解成称为标记的小符号块,然后将其重建为声音。这在纸上看起来很整洁,但实际听起来可以听到缺陷。机械化的表达、断断续续的语调,声音听起来像是在实验室里拼凑出来的。
大多数文本到语音系统遵循相同的配方:将语音分解成称为标记的小符号块,然后将其重建为声音。这在纸上看起来很整洁,但实际听起来可以听到缺陷。机械化的表达、断断续续的语调,声音听起来像是在实验室里拼凑出来的。
最近,AI 圈子里又炸开了锅。当大家还在追逐那些动辄千亿参数的语言大模型时,面壁智能和清华大学深圳国际研究生院人机语音交互实验室却悄悄扔出了一枚“小钢炮”——VoxCPM 语音生成模型。这模型,参数规模才0.5B,也就是5亿,却在语音生成领域掀起了巨浪,直接把
9月18日,面壁智能发布0.5B参数尺寸的语音生成基座模型VoxCPM。该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发。目前,VoxCPM已在GitHub、Hugging Face等平台开源。
该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发。官方表示,VoxCPM 在合成语音的自然度、音色相似度及韵律表现力方面均达到了 SOTA 水平。目前,VoxCPM 已在 GitHub、Hugging Face 等平台开源